iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0
AI/ ML & Data

30 Days of AI Research系列 第 16

[Day 15] ESRL: Efficient Sampling-Based Reinforcement Learning for Sequence Generation

  • 分享至 

  • xImage
  •  

Paper link | Code link | AAAI 2024

整體想法

增強式學習(Reinforcement Learning,RL)在序列生成模型中可能會導致高昂的計算成本。

本研究提出了一種有效的增強式學習方法(ESRL),使用兩階段動態採樣的方式來提高效率。

摘要

強化學習(Reinforcement Learning,RL)應用於序列生成模型可優化長期回報,例如 BLEU 分數和人類反饋。

然而,這通常需要對動作序列進行大量採樣,由於機器翻譯中的動作空間較大且序列較長,這在計算上具有挑戰性。

在本研究中,他們引入了兩階段採樣和動態採樣的方法,以提高這些模型在訓練過程中的採樣效率。

背景

在訓練序列生成模型中,強化學習(Reinforcement Learning,RL)受到了關注,但由於動作空間大序列長,在自然語言處理中的應用仍存在挑戰。

以下是傳統強化學習損失計算的示意圖。

image

為了解決這些挑戰,他們探索了在序列生成模型的強化學習中減少探索期間計算負載的策略。

方法

在序列生成模型中,給定一個輸入 https://ithelp.ithome.com.tw/upload/images/20240815/20152821GaPOinLZj6.png,模型生成一個長度為 https://ithelp.ithome.com.tw/upload/images/20240815/20152821R0oQeCeVOq.png 的 token 序列 https://ithelp.ithome.com.tw/upload/images/20240815/201528219kVPNsJK0w.png。在訓練過程中,模型學習概率:

https://ithelp.ithome.com.tw/upload/images/20240815/20152821fI0iI5ft7G.png

在推理階段,他們根據概率 https://ithelp.ithome.com.tw/upload/images/20240815/20152821z3aLtgALqB.png 逐步生成token。

該訓練實例的強化學習損失為:

https://ithelp.ithome.com.tw/upload/images/20240815/20152821N1V1kwij1n.png

其中,https://ithelp.ithome.com.tw/upload/images/20240815/20152821pv0xCTyd5x.png 是輸入 https://ithelp.ithome.com.tw/upload/images/20240815/201528214X1qI7CS7S.png 的所有可能候選目標序列的輸出空間。


本研究的高效取樣強化學習(Efficient Sampling-based RL,ESRL)可以有效地進行探索。

  1. 他們使用兩階段取樣框架來實施探索。
  2. 然後他們提出了一種動態取樣方法,通過考慮模型的能力來減少冗餘取樣。

image

兩階段取樣

為了解決取樣過程中計算圖存儲要求過高的問題,他們使用了兩階段框架。

在第一階段,他們使用自回歸模型來取樣候選序列。

在第二階段,他們計算這些取樣序列的概率。

動態取樣

本研究提出了一種動態取樣來進一步提高強化學習訓練的效率。

他們首先估計模型的能力,然後根據這個估計調整取樣大小和溫度,從而實現高效且充分的取樣。

優化

本研究將標準策略方法替換為 MRT 和 REINFORCE 的融合來計算損失。

實驗

在他們的實驗中,他們使用了三個不同的任務,並使用標準的Transformer基本模型:

  1. 機器翻譯
  2. 抽象總結
  3. 強化學習與人類反饋(RLHF)

機器翻譯

image

抽象總結

image


上一篇
[Day 14] Unveiling Fantastic Fact-Skeleton of LLMs via Ontology-Driven Reinforcement Learning
下一篇
[Day 16] RLEG: Vision-Language Representation Learning with Diffusion-based Embedding Generation
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言